군집 (통계학)

1. 개요

군집은 통계학, 데이터 마이닝, 패턴 인식, 기계 학습 등 다양한 분야에서 사용되는 개념으로, 서로 유사한 특성을 가진 객체들의 모임을 의미한다. 이는 데이터 내에 존재하는 자연스러운 그룹 구조를 발견하고 이해하는 데 목적을 둔다.

군집 분석은 레이블이 없는 데이터를 대상으로 수행되는 비지도 학습의 대표적인 기법이다. 주요 용도로는 복잡한 데이터의 구조를 파악하고 시각화하며 요약하는 것, 그리고 다른 데이터와 현저히 다른 이상치를 탐지하는 것이 포함된다. 분석 과정에서 객체 간의 유사성은 주로 거리 척도를 통해 측정되며, 각 군집은 중심점이나 밀도와 같은 개념으로 대표될 수 있다.

이 기법을 구현하는 대표적인 알고리즘에는 K-평균 군집화, 계층적 군집화, DBSCAN 등이 있다. 각 알고리즘은 군집을 정의하고 형성하는 방식에 있어 서로 다른 철학과 접근법을 가지고 있다. 예를 들어, K-평균 군집화는 중심점 기반의 분할적 방식을, 계층적 군집화는 트리 구조를 생성하는 방식을, DBSCAN은 데이터 공간의 밀도를 기준으로 군집을 찾는 방식을 사용한다.

군집 분석의 결과는 데이터의 기본적인 구조에 대한 통찰을 제공하며, 이는 시장 세분화, 이미지 분할, 생물학적 종 분류, 문서 군집화 등 사회과학, 생명과학, 디지털 콘텐츠 관리 등 폭넓은 응용 분야에서 활용된다.

2. 군집 분석의 목적

군집 분석의 목적은 데이터 내에 존재하는 자연스러운 그룹 구조를 발견하고 이해하는 것이다. 이는 데이터 마이닝과 기계 학습의 핵심적인 탐색적 분석 기법으로, 사전에 정의된 레이블이나 범주 없이 데이터 자체의 구조를 밝히는 데 초점을 둔다. 주요 목적 중 하나는 복잡한 데이터를 유사한 특성을 공유하는 하위 집단으로 분할하여 데이터를 요약하고 해석 가능한 형태로 만드는 것이다. 이를 통해 방대한 양의 데이터를 몇 개의 대표적인 군집으로 묘사할 수 있으며, 데이터의 전체적인 패턴을 파악하는 데 도움이 된다.

또 다른 중요한 목적은 데이터 시각화와 이상치 탐지이다. 고차원 데이터를 군집화하면 시각적으로 표현하기 어려운 구조를 파악할 수 있으며, 어떤 군집에도 속하지 않는 데이터 포인트를 식별함으로써 이상치를 발견할 수 있다. 이는 사기 탐지나 품질 관리와 같은 분야에서 유용하게 활용된다. 군집 분석은 고객 세분화, 유전자 발현 분석, 이미지 분할, 문서 분류 등 다양한 응용 분야에서 데이터 기반 의사결정을 지원하는 기초 도구로 사용된다.

3. 군집 분석 방법

3.1. 계층적 군집화

계층적 군집화는 데이터 포인트들을 계층 구조로 조직화하는 군집 분석 방법이다. 이 방법은 모든 데이터 포인트를 하나의 군집으로 시작하여 가장 유사한 군집들을 반복적으로 병합하거나, 반대로 모든 데이터 포인트를 각각의 군집으로 시작하여 가장 가까운 군집들을 병합하는 방식으로 작동한다. 이 과정의 결과는 군집 간의 포함 관계를 보여주는 덴드로그램이라는 트리 구조의 다이어그램으로 시각화된다. 덴드로그램을 분석하면 다양한 수준의 군집 구조를 한 번에 파악할 수 있어, 사전에 군집의 수를 정하지 않고도 데이터의 자연스러운 계층을 탐색하는 데 유용하다.

계층적 군집화는 크게 병합적 접근법과 분할적 접근법으로 나뉜다. 병합적 접근법은 각 데이터 포인트를 개별 군집으로 간주한 후, 단일 군집이 남을 때까지 가장 가까운 군집 쌍을 반복적으로 병합하는 상향식 방식이다. 반대로 분할적 접근법은 모든 데이터를 하나의 군집으로 보고 이를 재귀적으로 분할하는 하향식 방식이다. 일반적으로 병합적 방식이 더 널리 사용된다. 군집 간의 거리를 계산할 때는 단일 연결법, 완전 연결법, 평균 연결법, 중심 연결법, 와드 연결법 등 다양한 연결 기준을 적용할 수 있으며, 이 선택은 최종 군집 구조에 큰 영향을 미친다.

이 방법의 주요 장점은 사전에 군집 수를 지정할 필요가 없으며, 덴드로그램을 통해 데이터의 다중 수준 군집 구조를 직관적으로 이해할 수 있다는 점이다. 또한 거리 행렬 계산에 기반하기 때문에 다양한 형태의 유사도 척도를 활용할 수 있다. 그러나 모든 데이터 포인트 쌍 간의 거리를 계산해야 하므로 계산 복잡도가 높아 대규모 데이터셋에는 비효율적일 수 있다. 또한 한 번 수행된 병합이나 분할은 되돌릴 수 없어 최적이 아닌 결정이 전체 군집 구조에 영향을 미칠 수 있다는 한계가 있다.

3.2. 분할적 군집화

분할적 군집화는 데이터 집합을 미리 정해진 수의 군집으로 분할하는 방법이다. 계층적 군집화와 달리, 사전에 군집의 개수 k를 지정해야 한다는 특징이 있다. 이 방법은 주로 데이터를 k개의 상호 배타적인 그룹으로 나누며, 각 군집은 하나의 중심점으로 대표된다. 가장 대표적인 알고리즘은 K-평균 군집화이다.

K-평균 알고리즘은 먼저 k개의 초기 중심점을 임의로 선택한다. 그런 다음 각 데이터 포인트를 가장 가까운 중심점이 속한 군집에 할당하고, 각 군집에 속한 점들의 평균을 계산하여 새로운 중심점을 갱신한다. 이 할당과 갱신 과정은 중심점의 이동이 없어질 때까지 반복된다. 이 알고리즘은 계산 효율이 높고 대용량 데이터에 적용하기 쉬우나, 초기 중심점의 선택에 민감하고 군집의 크기나 밀도가 다를 경우 성능이 저하될 수 있다.

분할적 군집화의 다른 예로는 K-중앙값 군집화와 포지 군집화가 있다. K-중앙값은 중심점 계산 시 평균 대신 중앙값을 사용하여 이상치의 영향을 줄인다. 포지 군집화는 각 데이터 포인트가 여러 군집에 속할 수 있는, 즉 소속 정도를 나타내는 퍼지 집합 이론을 기반으로 한다. 이러한 방법들은 데이터의 특성에 따라 선택적으로 활용된다.

분할적 군집화는 군집 수 k를 사전에 알아야 한다는 근본적인 한계가 있다. 이를 해결하기 위해 엘보우 방법이나 실루엣 계수와 같은 군집 수 결정 기법과 함께 사용되는 경우가 많다. 또한, 이 방법들은 일반적으로 구형의 군집을 잘 찾아내지만, 복잡한 기하학적 형태를 가진 군집을 발견하는 데는 계층적 군집화나 밀도 기반 군집화 같은 다른 접근법에 비해 제한적이다.

3.3. 밀도 기반 군집화

밀도 기반 군집화는 데이터 공간 내에서 데이터 포인트들이 조밀하게 모여 있는 영역을 군집으로 정의하는 방법이다. K-평균 군집화나 계층적 군집화와 달리 군집의 모양을 구형이나 계층적 구조로 가정하지 않으며, 임의의 형태를 가진 군집을 발견할 수 있다는 장점이 있다. 또한, 데이터의 밀도가 낮은 영역에 위치한 이상치를 자연스럽게 탐지하고 배제할 수 있다.

이 방법의 대표적인 알고리즘은 DBSCAN이다. DBSCAN은 두 개의 주요 매개변수, 즉 반경(ε)과 최소 포인트 수(MinPts)를 사용한다. 알고리즘은 핵심 포인트(주어진 반경 내에 최소 포인트 수 이상의 이웃을 가진 점), 경계 포인트(핵심 포인트의 반경 내에 있지만 자신은 핵심 포인트가 아닌 점), 그리고 잡음 포인트(어떤 핵심 포인트의 반경 내에도 속하지 않는 점)로 데이터를 분류한다. 핵심 포인트들이 서로 연결되어 형성된 영역이 하나의 군집이 된다.

밀도 기반 군집화는 특히 공간 데이터베이스나 지리 정보 시스템에서 복잡한 지리적 패턴을 분석하거나, 이미지 처리에서 서로 연결된 픽셀 영역을 분할하는 데 유용하게 적용된다. 그러나 데이터의 밀도가 균일하지 않거나, 군집 간의 밀도 차이가 심할 경우 모든 군집을 올바르게 식별하기 어려운 한계가 있다. 이러한 문제를 보완하기 위해 변수 밀도를 고려한 OPTICS 같은 알고리즘이 개발되기도 했다.

3.4. 그리드 기반 군집화

그리드 기반 군집화는 데이터 공간을 유한한 개수의 셀들로 구성된 그리드 구조로 양자화한 후, 이 셀들을 대상으로 군집을 형성하는 방법이다. 계층적 군집화나 분할적 군집화가 개별 데이터 포인트 간의 거리를 계산하는 것과 달리, 이 방법은 데이터가 속한 셀의 정보를 기반으로 연산을 수행한다. 이로 인해 데이터 포인트의 수에 민감하지 않고, 처리 속도가 빠르다는 장점을 가진다. 특히 대용량 공간 데이터베이스를 처리할 때 효율적이다.

대표적인 알고리즘으로는 STING과 CLIQUE가 있다. STING 알고리즘은 공간 영역을 계층적인 그리드 셀로 나누고, 각 셀에 대한 통계 정보를 미리 저장하여 군집 질의에 신속하게 응답한다. CLIQUE 알고리즘은 그리드 기반 방식을 밀도 기반 군집화와 결합하여, 고차원 데이터 마이닝에서 밀도가 높은 서브공간을 자동으로 발견하는 데 특화되어 있다. 이 외에도 WaveCluster와 같은 알고리즘들이 개발되었다.

이 방법의 주요 특징은 군집의 형태가 그리드 셀의 경계에 의해 제한된다는 점이다. 따라서 군집의 경계가 수직 또는 수평선 형태를 띠게 되어, 임의의 모양을 가진 군집을 찾아내는 데에는 한계가 있을 수 있다. 또한 그리드의 해상도(셀의 크기)를 사전에 결정해야 하며, 이 파라미터가 군집화 결과의 질에 큰 영향을 미친다. 적절한 해상도를 선택하지 않으면 중요한 군집을 놓치거나 과도하게 세분화될 수 있다.

3.5. 모델 기반 군집화

모델 기반 군집화는 데이터가 특정 확률 모델에서 생성되었다고 가정하고, 그 모델의 매개변수를 추정함으로써 군집을 형성하는 접근법이다. 다른 방법들이 주로 데이터 포인트 간의 거리나 밀도에 기반하는 반면, 이 방법은 데이터의 통계적 분포를 모델링하는 데 초점을 둔다. 가장 대표적인 예는 혼합 모델을 가정하고 기댓값 최대화 알고리즘을 사용하여 각 데이터 포인트가 어떤 구성 요소에서 생성되었을 확률을 계산하는 가우시안 혼합 모델 기반 군집화이다. 이 방법은 군집의 모양이 타원형이나 구형과 같은 특정 분포를 따를 때 효과적이다.

이 접근법의 주요 장점은 각 군집에 대한 확률적 소속도를 제공한다는 점이다. 즉, 하나의 데이터 포인트가 여러 군집에 속할 수 있는 가능성을 수치적으로 표현할 수 있어, 군집 간 경계가 모호한 경우에 유용한 정보를 준다. 또한 모델의 복잡도를 조절하는 기준(예: 베이즈 정보 기준)을 통해 데이터에 가장 적합한 군집의 수를 객관적으로 결정할 수 있는 이론적 틀을 제공한다는 강점이 있다.

그러나 모델 기반 군집화는 가정한 확률 모델이 실제 데이터의 분포를 잘 설명하지 못할 경우 성능이 크게 저하될 수 있다는 한계를 가진다. 복잡한 형태의 군집이나 비정형적인 데이터 분포에는 적합하지 않을 수 있으며, 모델의 매개변수 추정 과정이 계산적으로 부담될 수 있다. 따라서 데이터의 사전 지식이 없거나, 군집의 형태에 대한 명확한 가정을 세우기 어려운 경우에는 분할적 군집화나 밀도 기반 군집화 같은 다른 방법이 더 적절할 수 있다.

4. 유사도/거리 척도

군집 분석에서 객체들 간의 유사성 또는 비유사성을 정량화하는 척도는 군집의 품질을 결정하는 핵심 요소이다. 이러한 척도는 일반적으로 거리 함수 또는 유사도 함수로 표현되며, 데이터의 특성과 분석 목적에 따라 적절한 척도를 선택해야 한다. 가장 기본적이고 널리 사용되는 거리 척도는 유클리드 거리로, 다차원 공간에서 두 점 사이의 직선 거리를 계산한다. 이 외에도 맨해튼 거리, 민코프스키 거리, 코사인 유사도 등 다양한 척도가 존재한다.

거리 척도	설명	주요 적용 분야
유클리드 거리	다차원 공간에서 두 점 사이의 직선 거리. 가장 직관적인 기하학적 거리.	일반적인 수치 데이터, 공간 데이터 분석
맨해튼 거리	각 좌표 차이의 절댓값 합. 격자 모양의 경로를 따르는 거리.	도시 계획, 그리드 기반 데이터
코사인 유사도	두 벡터 간의 각도 코사인값으로 방향의 유사성을 측정. 크기는 무시.	텍스트 마이닝, 문서 군집화, 정보 검색
자카드 거리	두 집합의 유사성을 교집합 크기를 합집합 크기로 나눈 자카드 계수로 측정.	집합 데이터, 생물정보학, 고객 구매 패턴 분석

범주형 데이터를 다룰 때는 해밍 거리나 자카드 거리가, 시퀀스 데이터에는 편집 거리가 활용된다. 또한, 데이터의 척도나 분포가 다를 경우 표준화나 정규화를 수행한 후 거리를 계산하는 것이 일반적이다. 적절한 거리 척도의 선택은 데이터의 본질을 올바르게 반영하여 의미 있는 군집을 도출하는 데 필수적이다.

5. 군집 수 결정 방법

군집 수 결정 방법은 군집 분석에서 생성될 군집의 최적 개수를 찾는 과정이다. 적절한 군집 수를 결정하는 것은 군집 결과의 유용성과 해석 가능성에 직접적인 영향을 미치기 때문에 매우 중요하다. 특히 K-평균 군집화나 분할적 군집화와 같이 사전에 군집 수를 지정해야 하는 알고리즘에서는 필수적인 단계이다. 이 과정은 주로 데이터의 내부 구조를 평가하는 다양한 지표를 통해 이루어진다.

가장 널리 사용되는 방법 중 하나는 엘보우 방법이다. 이 방법은 군집 수를 변화시키면서 각 군집 내 데이터 포인트와 해당 군집의 중심점(중심점) 사이의 거리 제곱합을 계산한다. 군집 수가 증가함에 따라 이 거리 제곱합은 감소하지만, 특정 지점 이후부터는 그 감소 폭이 현저히 줄어든다. 이 변화가 완만해지는 지점, 즉 그래프 상에서 팔꿈치처럼 꺾이는 부분을 최적의 군집 수로 간주한다. 이는 군집 수를 더 늘려도 얻는 정보의 이득이 크지 않음을 의미한다.

또 다른 대표적인 방법은 실루엣 계수를 활용하는 것이다. 실루엣 계수는 한 데이터 포인트가 자신이 속한 군집 내에서 얼마나 조밀하게 모여 있는지(응집도)와 다른 군집과는 얼마나 잘 분리되어 있는지(분리도)를 결합하여 측정한다. 모든 데이터 포인트에 대한 실루엣 계수의 평균값을 계산하고, 이 평균값이 최대가 되는 군집 수를 최적의 값으로 선택한다. 실루엣 계수는 군집의 밀도와 분리 정도를 동시에 고려하여 직관적인 해석을 제공한다는 장점이 있다.

이 외에도 갭 통계량, BIC와 같은 정보 기준, 또는 계층적 군집화 결과를 시각화한 덴드로그램을 분석하여 군집 수를 결정하기도 한다. 각 방법은 데이터의 특성과 분석 목적에 따라 적절히 선택되어야 하며, 때로는 여러 방법의 결과를 종합적으로 검토하여 최종 결정을 내린다.

6. 군집 분석의 평가

군집 분석의 평가는 생성된 군집의 품질을 객관적으로 측정하고 서로 다른 군집화 알고리즘의 결과를 비교하는 과정이다. 군집 분석은 일반적으로 사전에 정답 레이블이 없는 비지도 학습의 일종이기 때문에, 군집 결과의 유용성을 판단하는 것은 중요한 과제이다. 평가 방법은 크게 내부 평가, 외부 평가, 상대 평가로 나눌 수 있다.

내부 평가는 군집 결과 자체의 내적 구조를 기반으로 품질을 측정한다. 이는 주로 군집 내 응집도와 군집 간 분리도를 계산하는 방식으로 이루어진다. 예를 들어, 군집 내 객체들 간의 거리는 작을수록(응집도 높음), 서로 다른 군집의 객체들 간의 거리는 클수록(분리도 높음) 군집화가 잘 되었다고 판단한다. 실루엣 계수는 각 객체가 자신이 속한 군집 내에서 얼마나 조밀하게 모여 있는지와 다른 군집과는 얼마나 잘 분리되어 있는지를 종합하여 -1부터 1 사이의 점수로 나타내는 대표적인 내부 평가 지표이다.

외부 평가는 군집 분석 결과를 사전에 알려진 기준 레이블(ground truth)과 비교하여 평가한다. 이 방법은 군집화가 얼마나 정확하게 사전 분류 체계를 재현했는지를 측정할 때 사용된다. 순도, 정확도, F-점수와 같은 분류 평가 지표가 적용되거나, 랜드 지수나 조정 랜드 지수와 같은 특수한 지표를 사용하기도 한다. 그러나 실제 응용에서는 기준 레이블을 얻기 어려운 경우가 많아 외부 평가의 적용에는 한계가 있다.

상대 평가는 여러 군집화 알고리즘을 동일한 데이터에 적용하거나, 하나의 알고리즘에 대해 서로 다른 매개변수를 사용했을 때의 결과를 비교하여 최적의 모델이나 설정을 선택하는 데 사용된다. 예를 들어, K-평균 군집화 알고리즘에서 최적의 군집 수 K를 결정하기 위해 군집 내 제곱합의 변화를 관찰하는 엘보우 방법이나, 계층적 군집화 결과를 평가하는 덴드로그램 분석이 여기에 해당한다. 최종적으로 군집 평가는 분석의 목적과 데이터의 특성에 맞는 지표를 선택하고, 이를 통해 군집 결과의 해석 가능성과 실용성을 높이는 데 기여한다.

7. 응용 분야

군집 분석은 다양한 분야에서 데이터의 숨겨진 구조를 발견하고 패턴을 식별하는 데 널리 활용된다. 데이터 마이닝에서는 대규모 데이터베이스 내에서 자연스럽게 형성된 그룹을 찾아내어 데이터를 요약하고 이해하는 데 사용된다. 기계 학습에서는 지도 학습을 위한 전처리 단계로, 또는 비지도 학습의 대표적인 기법으로서 데이터의 분포를 학습하는 데 적용된다. 또한 패턴 인식에서는 이미지나 신호 데이터 내의 유사한 패턴을 그룹화하여 분류 작업을 지원한다.

구체적인 응용 사례로는 고객 세분화가 있다. 마케팅 분야에서는 거래 이력이나 인구통계 정보를 바탕으로 유사한 성향의 고객 집단을 식별하여 맞춤형 전략을 수립한다. 생물정보학에서는 유전자 발현 데이터나 단백질 서열을 군집화하여 기능이 유사한 유전자나 단백질 군을 발견한다. 이미지 처리에서는 영상 분할을 통해 사진 내에서 색상과 질감이 비슷한 픽셀들을 하나의 객체로 묶는 작업에 군집 분석이 사용된다.

또한 네트워크 분석에서는 소셜 네트워크 내의 커뮤니티를 탐지하거나, 문서 군집화를 통해 뉴스 기사나 학술 논문을 주제별로 자동 분류하는 데 활용된다. 이상치 탐지 분야에서는 정상 데이터 포인트들이 형성하는 밀집 군집에서 벗어난 객체를 이상치로 판단하는 데 DBSCAN과 같은 밀도 기반 알고리즘이 효과적이다. 의료 분야에서는 환자 기록을 군집화하여 질병의 하위 유형을 식별하거나, 유사한 증상을 보이는 환자 군을 연구하는 데 도움을 준다.

8. 장점과 한계

군집 분석은 사전에 레이블이 지정되지 않은 데이터에서 내재된 구조를 발견하는 탐색적 데이터 분석 기법으로 널리 사용된다. 가장 큰 장점은 지도 학습과 달리 정답 레이블이 필요 없다는 점이다. 이는 데이터에 대한 사전 지식이 부족한 초기 분석 단계나 레이블링 비용이 큰 상황에서 유용하다. 또한, 데이터를 유사한 그룹으로 요약함으로써 복잡한 데이터셋을 이해하고 시각화하는 데 효과적이며, 이상치 탐지에도 활용될 수 있다. 군집 분석은 데이터 마이닝, 이미지 분할, 고객 세분화, 생물정보학 등 다양한 분야에서 응용된다.

그러나 군집 분석에는 몇 가지 명확한 한계가 존재한다. 대부분의 알고리즘은 분석자가 군집의 수(K)를 사전에 지정해야 하며, 이는 주관적일 수 있다. K-평균 군집화 같은 방법은 초기 중심점 설정에 민감하고, 구형의 군집을 가정하기 때문에 복잡한 형태의 군집을 찾기 어렵다. 또한, 거리 기반 방법은 데이터의 척도에 영향을 크게 받으며, 범주형 변수를 처리하는 데 제약이 있을 수 있다. 군집 결과의 해석은 분석가의 판단에 크게 의존하며, 발견된 군집이 항상 실질적 의미를 지닌다고 보장할 수 없다.

이러한 한계를 보완하기 위해 다양한 기법이 개발되었다. 계층적 군집화는 군집 수를 미리 정하지 않고 덴드로그램을 통해 다양한 군집 수를 탐색할 수 있게 한다. DBSCAN 같은 밀도 기반 군집화 알고리즘은 임의의 형태를 가진 군집을 찾고 잡음을 구별할 수 있으며, 군집 수를 자동으로 결정하는 장점이 있다. 최근에는 고차원 데이터나 복잡한 구조를 처리하기 위한 심층 군집화 등의 연구도 활발히 진행되고 있다.

9. 관련 개념

군집 분석은 데이터 마이닝과 기계 학습의 핵심적인 기법 중 하나로, 분류나 분할과 같은 다른 개념들과 밀접한 연관이 있다. 분류는 사전에 정의된 레이블을 기반으로 데이터를 구분하는 지도 학습 방법인 반면, 군집 분석은 레이블이 없는 데이터 내에서 자연스러운 그룹을 발견하는 비지도 학습에 속한다. 또한, 데이터를 사전 정의된 영역으로 나누는 분할과도 구분되며, 군집은 데이터 자체의 구조에서 도출된다는 점이 특징이다.

군집 분석의 결과는 종종 차원 축소나 데이터 시각화를 위한 전처리 단계로 활용되기도 한다. 고차원 데이터를 군집화하여 주요 패턴을 요약하면, 주성분 분석과 같은 방법으로 차원을 줄이거나 시각적으로 표현하기가 훨씬 수월해진다. 또한, 군집 내부의 밀도가 높은 데이터와는 대조적으로, 어느 군집에도 속하지 않는 이상치를 효과적으로 탐지하는 데에도 유용하게 적용된다.

이 개념은 패턴 인식과 이미지 분할 같은 컴퓨터 비전 분야에서도 널리 사용된다. 예를 들어, 이미지의 픽셀을 색상이나 텍스처 유사성에 따라 군집화하면, 서로 다른 객체나 영역을 자동으로 구분하는 이미지 분할을 수행할 수 있다. 이처럼 군집 분석은 순수 통계학을 넘어 인공지능의 다양한 하위 분야에서 데이터 이해의 기초를 제공하는 중요한 도구이다.

군집 (통계학)

정의	유사한 특성을 가진 객체들의 모임
분야	통계학 데이터 마이닝 패턴 인식 기계 학습
주요 용도	데이터 분석 시각화 요약 이상치 탐지
핵심 개념	유사성 거리 중심점
대표 알고리즘	K-평균 군집화 계층적 군집화 DBSCAN
상세 정보
유형	분할 군집화 계층적 군집화 밀도 기반 군집화 그리드 기반 군집화
평가 척도	실루엣 계수 덴드로그램 Davies–Bouldin 지수
관련 문제	초기값 민감성 군집 수 결정 차원의 저주
응용 분야	고객 세분화 이미지 분할 사회 네트워크 분석 생물정보학

군집 (통계학)

정의	유사한 특성을 가진 객체들의 모임
분야	통계학 데이터 마이닝 패턴 인식 기계 학습
주요 용도	데이터 분석 시각화 요약 이상치 탐지
핵심 개념	유사성 거리 중심점
대표 알고리즘	K-평균 군집화 계층적 군집화 DBSCAN
상세 정보
유형	분할 군집화 계층적 군집화 밀도 기반 군집화 그리드 기반 군집화
평가 척도	실루엣 계수 덴드로그램 Davies–Bouldin 지수
관련 문제	초기값 민감성 군집 수 결정 차원의 저주
응용 분야	고객 세분화 이미지 분할 사회 네트워크 분석 생물정보학

군집 (통계학)

1. 개요

2. 군집 분석의 목적

3. 군집 분석 방법

3.1. 계층적 군집화

3.2. 분할적 군집화

3.3. 밀도 기반 군집화

3.4. 그리드 기반 군집화

3.5. 모델 기반 군집화

4. 유사도/거리 척도

5. 군집 수 결정 방법

6. 군집 분석의 평가

7. 응용 분야

8. 장점과 한계

9. 관련 개념

10. 관련 문서

편집 제한

편집 제한

문서 정보

분류

편집 제한

문서 정보

분류

편집 제한